【レポート】 はじめての機械学習ワークフローの作り方 〜データに集中したいあなたのために〜 AWS-31 #AWSSummit
こんにちは。森田です。
本記事はAWS Summit Tokyoで行われたセッション「AWS-31 はじめての機械学習ワークフローの作り方 〜データに集中したいあなたのために〜」のセッションレポートです。
セッション視聴
AWS Summit Tokyoの登録を行うことでオンデマンドで視聴可能です。(現地参加された方は改めての登録は不要です。)
セッション概要
スピーカー
アマゾン ウェブ サービス ジャパン合同会社
スタートアップ事業部 ソリューションアーキテクト
尾原 颯 氏
アジェンダ
- Data-Centric について
- 機械学習ワークフローと Data-Centric
- Amazon SageMaker による解決
- まとめ
セッション内容
- Data-Centric とは
- データの品質などに注力して開発するアプローチ
- Model-Centric アプローチ
- 機械学習の選択
- パラメータのチューニングなど
- Data-Centric アプローチ
- データをきれいにしていく
- フォーマットや欠損値
- データをきれいにしていく
- Data-Centric アプローチ効果
- 綺麗なデータと汚いデータで10%精度が違う場合がある
- 機械学習ワークフローと Data-Centric
- 3 Step
- データ処理
- データの収集
- データのラベルづけ
- データ探索
- 特徴量エンジニアリング
- モデル開発
- 前処理
- モデルの選択
- モデルの学習
- モデルのチューニング
- モデル評価
- デプロイ
- モデルのデプロイ
- データ処理
- 機械学習プロジェクトが失敗する理由
- データの品質が不十分
- データサイエンティストなどの専門職不在
- プロジェクト成功に導くワークフローを構築するために必要なこと
- 機械学習の知識
- 高速な試行錯誤
- 差別化要素への注力
- より重要になっている
- モデル開発 → デプロイ
- AutoML などの技術を使った自動化・固定化
- データ処理 → モデル開発
- ツールを使ったサイクルの高速化
- データ処理に注力(Data-centric)
- 1つの有効なアプローチで銀の弾丸ではない
- 3 Step
- Amazon SageMaker による解決
- 構造化データパターン(テーブルデータ)
- SageMaker Data Wrangler
- 機械学習用のデータを準備するための最も迅速かつ簡単な方法
- データ品質の向上と探索
- データの可視化と理解
- データのエンリッチ
- データのアクセス
- 40種類を超えるデータソースをサポート
- データの探索と可視化
- 機械学習を使ってデータ品質の問題を発見
- 特徴量エンジニアリング
- GUI で300 以上の組み込み変換
- カスタム変換も可能
- Quick Model で期待できるモデル精度を推定
- 機械学習用のデータを準備するための最も迅速かつ簡単な方法
- SageMaker Autopilot
- 完全可視性を備えた機械学習モデルを自動的に作成
- モデル開発を可視化
- 自動機械学習モデル選択
- 予測の種類を自動的に推測
- SageMaker Data Wrangler から連携可能
- モデルデプロイ
- リアルタイム予測
- SageMaker Data Wrangler のデータ処理を予測時にも適用可能
- 完全可視性を備えた機械学習モデルを自動的に作成
- SageMaker Canvas
- 機械学習による正確な予測コード不要で生成
- SageMaker Data Wrangler
- 非構造化データパターン(画像、文書、音声など)
- SagaMaker Ground Truth
- 機械学習向けの高品質なデータセット作成
- SageMaker JumpStart
- 数クリックで 350 以上の公開モデルなどを素早く学習し、デプロイする
- 機械学習のコードを記述する必要なしで始めることができる
- 数クリックで 350 以上の公開モデルなどを素早く学習し、デプロイする
- SagaMaker Ground Truth
- 構造化データパターン(テーブルデータ)
- Next Step
- ハンズオンで SageMaker Data Wrangler や SageMaker Ground Truth を使い始めてみよう!
まとめ
本セッションを通して、Data-Centric とは何なのか、Data-Centricのアプローチについて学ぶことができました。
データの前処理を行うか否かで、同じモデルを使用した場合でも精度が10%近く変わることもあり、いかにデータの品質を改善していくことが重要であるかを再確認しました。
また、AWS では、モデルの構築部分を自動化できるサービスが豊富であるため、データに集中できる環境が整っています。
Data Centric に 機械学習プロジェクトを始める際には、AWS を利用することで非常に簡単に実現できそうですね!